Domain adaptation for Cross-LiDAR 3D detection is challenging due to the large gap on the raw data representation with disparate point densities and point arrangements. By exploring domain-invariant 3D geometric characteristics and motion patterns, we present an unsupervised domain adaptation method that overcomes above difficulties. First, we propose the Spatial Geometry Alignment module to extract similar 3D shape geometric features of the same object class to align two domains, while eliminating the effect of distinct point distributions. Second, we present Temporal Motion Alignment module to utilize motion features in sequential frames of data to match two domains. Prototypes generated from two modules are incorporated into the pseudo-label reweighting procedure and contribute to our effective self-training framework for the target domain. Extensive experiments show that our method achieves state-of-the-art performance on cross-device datasets, especially for the datasets with large gaps captured by mechanical scanning LiDARs and solid-state LiDARs in various scenes. Project homepage is at https://github.com/4DVLab/CL3D.git
translated by 谷歌翻译
Depth estimation is usually ill-posed and ambiguous for monocular camera-based 3D multi-person pose estimation. Since LiDAR can capture accurate depth information in long-range scenes, it can benefit both the global localization of individuals and the 3D pose estimation by providing rich geometry features. Motivated by this, we propose a monocular camera and single LiDAR-based method for 3D multi-person pose estimation in large-scale scenes, which is easy to deploy and insensitive to light. Specifically, we design an effective fusion strategy to take advantage of multi-modal input data, including images and point cloud, and make full use of temporal information to guide the network to learn natural and coherent human motions. Without relying on any 3D pose annotations, our method exploits the inherent geometry constraints of point cloud for self-supervision and utilizes 2D keypoints on images for weak supervision. Extensive experiments on public datasets and our newly collected dataset demonstrate the superiority and generalization capability of our proposed method.
translated by 谷歌翻译
预测公路参与者的未来运动对于自动驾驶至关重要,但由于令人震惊的运动不确定性,因此极具挑战性。最近,大多数运动预测方法求助于基于目标的策略,即预测运动轨迹的终点,作为回归整个轨迹的条件,以便可以减少解决方案的搜索空间。但是,准确的目标坐标很难预测和评估。此外,目的地的点表示限制了丰富的道路环境的利用,从而导致预测不准确。目标区域,即可能的目的地区域,而不是目标坐标,可以通过涉及更多的容忍度和指导来提供更软的限制,以搜索潜在的轨迹。考虑到这一点,我们提出了一个新的基于目标区域的框架,名为“目标区域网络”(GANET)进行运动预测,该框架对目标区域进行了建模,而不是确切的目标坐标作为轨迹预测的先决条件,更加可靠,更准确地执行。具体而言,我们建议一个goicrop(目标的目标区域)操作员有效地提取目标区域中的语义巷特征,并在目标区域和模型演员的未来互动中提取语义巷,这对未来的轨迹估计很大。 Ganet在所有公共文献(直到论文提交)中排名第一个,将其源代码排在第一位。
translated by 谷歌翻译
以视觉为中心的BEV感知由于其固有的优点,最近受到行业和学术界的关注,包括展示世界自然代表和融合友好。随着深度学习的快速发展,已经提出了许多方法来解决以视觉为中心的BEV感知。但是,最近没有针对这个小说和不断发展的研究领域的调查。为了刺激其未来的研究,本文对以视觉为中心的BEV感知及其扩展进行了全面调查。它收集并组织了最近的知识,并对常用算法进行了系统的综述和摘要。它还为几项BEV感知任务提供了深入的分析和比较结果,从而促进了未来作品的比较并激发了未来的研究方向。此外,还讨论了经验实现细节并证明有利于相关算法的开发。
translated by 谷歌翻译
我们建议以人为本的4D场景捕获(HSC4D)准确有效地创建一个动态的数字世界,其中包含大规模的室内场景,各种各样的人类动作以及人类与环境之间的丰富互动。 HSC4D仅使用车身安装的IMU和LIDAR,没有任何外部设备的限制和无图形地图,没有预构建的地图。考虑到IMU可以捕获人的姿势,但始终为长期使用而漂移,而LiDar对于全球本地化却是稳定的,但对于本地位置和方向而言,HSC4D使两个传感器通过联合优化和实现长期的有希望的结果相互补充。捕获。还探索了人与环境之间的关系,以使其相互作用更加现实。为了促进许多下游任务,例如AR,VR,机器人,自动驾驶等,我们提出了一个数据集,其中包含三个大型场景(1k-5k $ m^2 $),并具有准确的动态人类动作和位置。各种场景(攀岩馆,多层建筑,坡度等)以及挑战人类活动(锻炼,上下楼梯,攀岩等)展示了HSC4D的有效性和概括能力。数据集和代码可在http://www.lidarhumanmotion.net/hsc4d/上获得。
translated by 谷歌翻译
新兴的元应用需要人类手的可靠,准确和逼真的复制品,以便在物理世界中进行复杂的操作。虽然真实的人手代表了骨骼,肌肉,肌腱和皮肤之间最复杂的协调之一,但最先进的技术一致专注于仅建模手的骨架。在本文中,我们提出了Nimble,这是一种新型的参数手模型,其中包括缺少的密钥组件,将3D手模型带入了新的现实主义水平。我们首先在最近的磁共振成像手(MRI手)数据集上注释肌肉,骨骼和皮肤,然后在数据集中的单个姿势和受试者上注册一个体积模板手。敏捷由20个骨头组成,作为三角形网格,7个肌肉群作为四面体网眼和一个皮肤网。通过迭代形状的注册和参数学习,它进一步产生形状的混合形状,姿势混合形状和关节回归器。我们证明将敏捷性应用于建模,渲染和视觉推理任务。通过强制执行内部骨骼和肌肉以符合解剖学和运动学规则,Nimble可以使3D手动画为前所未有的现实主义。为了建模皮肤的外观,我们进一步构建了一个光度法,以获取高质量的纹理和正常地图,以模型皱纹和棕榈印刷。最后,敏捷还通过合成丰富的数据或直接作为推理网络中的可区分层来使基于学习的手姿势和形状估计受益。
translated by 谷歌翻译
最近,立体声匹配基准的记录由端到端视差网络不断破碎。但是,这些深层模型的域适应能力非常有限。解决此类问题,我们提出了一种名为ADASTEREO的新型域自适应方法,该方法旨在对准深度立体声匹配网络的多级表示。与以前的方法相比,我们的ADASTEREO实现了更标准,完整有效的域适应管道。首先,我们提出了一种用于输入图像级对准的非对抗渐进颜色传输算法。其次,我们设计一个有效的无参数成本归一化层,用于内部特征级别对齐。最后,提出了一种高效的辅助任务,自我监督的遮挡感知重建以缩小输出空间中的间隙。我们进行密集的消融研究和分解比较,以验证每个提出的模块的有效性。没有额外推断开销,只有略微增加训练复杂性,我们的Adastereo模型在多个基准上实现了最先进的跨领域性能,包括Kitti,Middrbury,Eth3D和驾驶员,甚至优于一些状态 - 与目标域的地面真相Fineetuned的差异网络。此外,基于两个额外的评估指标,从更多的观点进一步揭示了我们域 - 自适应立体声匹配管道的优越性。最后,我们证明我们的方法对各种域适配设置具有强大,并且可以轻松地集成到快速适应应用方案和现实世界部署中。
translated by 谷歌翻译
注释的医学图像昂贵,有时甚至无法在一定程度上获得地标检测精度。半监督学习通过利用未标记的数据来了解解剖标志性的人口结构来减轻对大规模注释数据的依赖。全局形状约束是解剖标识的固有属性,为更加一致的伪标签提供了有价值的指导,这些指南在先前的半监督方法中被忽略。在本文中,我们通过完全考虑全局形状约束,提出了一种用于半监控地标检测的模型 - 不可知的形状调节的自我训练框架。具体而言,为了确保伪标签是可靠且保持一致的,基于PCA的形状模型调整伪标签并消除异常。一种新的区域注意力损失,使网络自动关注伪标签周围的结构一致区域。广泛的实验表明,我们的方法优于其他半监督方法,并在三个医学图像数据集中实现了显着的改进。此外,我们的框架是灵活的,可用作集成到最具监控方法的即插即用模块,以进一步提高性能。
translated by 谷歌翻译
随着计算机技术的开发,人工智能已经出现了各种模型。在自然语言处理(NLP)成功之后,变压器模型已应用于计算机视觉(CV)。放射科医生在当今迅速发展的医疗领域中继续面临多重挑战,例如增加工作量和增加的诊断需求。尽管以前有一些常规的肺癌检测方法,但仍需要提高其准确性,尤其是在现实的诊断情况下。本文创造性地提出了一种基于有效变压器的分割方法,并将其应用于医学图像分析。该算法通过分析肺癌数据来完成肺癌分类和细分的任务,并旨在为医务人员提供有效的技术支持。此外,我们在各个方面进行了评估并比较了结果。对于分类任务,通过定期培训和SWIN-B在两项决议中通过预训练的最高准确性可高达82.3%。对于分割任务,我们使用预训练来帮助模型提高实验的准确性。这三个模型的准确性达到95%以上。实验表明该算法可以很好地应用于肺癌分类和分割任务。
translated by 谷歌翻译
在本文中,我们从优化的角度研究了对比度学习,旨在分析和解决现有的对比学习方法的基本问题,这些方法依靠大批量大小或大型矢量词典。我们考虑了对比度学习的全球目标,该目标将每个正对与锚点的所有负对对比。从优化的角度来看,我们解释了为什么诸如SIMCLR之类的现有方法需要大批量大小才能获得令人满意的结果。为了消除此类要求,我们提出了一种记忆有效的随机优化算法,用于求解名为SOGCLR的对比度学习的全局目标。我们表明,在足够数量的迭代次数之后,在合理条件下,其优化误差可以忽略不计,或者对于稍有不同的全局对比目标而减少。从经验上讲,我们证明具有小批量大小的SOGCLR(例如256)可以在Imagenet-1k上的自我监督学习任务上获得与具有较大批量大小(例如8192)的SIMCLR相似的性能。我们还试图证明所提出的优化技术是通用的,可以应用于解决其他对比损失,例如双峰对比度学习的双向对比损失。提出的方法是在我们开源的图书馆libauc(www.libauc.org)中实现的。
translated by 谷歌翻译